Skip to main content

Generación de subtítulos de voz en la Nvidia Jetson

Introducción

Hoy en día, tenemos muchas reuniones diariamente, pero parte del contenido de las reuniones no está destinado a ser publicado. Enviar contenido de la reunión a la nube para grabar y devolver subtítulos puede representar una amenaza importante para la privacidad de la reunión. Y lo más importante es que perderás el contenido de tu reunión si hay problemas de conexión a Internet.

Y aquí te presentamos Generación de subtítulos de voz en la Jetson, que puede ofrecer servicios de voz a subtítulos en tiempo real y al mismo tiempo evitar la fuga de información en Internet. El contenido de la reunión se puede transcribir y mostrar en pantallas utilizando un modelo de IA en forma de subtítulos, lo que puede proteger la privacidad de la reunión y reducir la carga de trabajo computacional durante la reunión.

Configuración de Hardware

  • reComputer (U otros dispositivos potenciados por la plataforma Jetson)

left

  • reSpeaker (Or other USB interface microphones)

auto

  • Conexión de Hardware

    pir

Preparar el entorno de ejecución

Paso 1. Instala Riva ASR Server:

Consulta esta wiki para instalar Riva ASR Server.

En tu terminal (Ctrl+Alt+T), ingresa sudo docker ps y verás algo como lo siguiente, eso significa que has terminado el primer paso.

pir

Paso 2. Instala flask:

Abre la terminal (Ctrl+Alt+T) y usa el siguiente comando para instalar flask:

pip3 install flask
python3 -c 'import flask; print(flask.__version__)

Si obtienes algo como lo siguiente, significa que has finalizado este paso.

pir

Paso 3. Actualizar pip setup tools wheel:

# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'

En tu terminal (Ctrl+Alt+T), ingresa pip --version y verás algo como lo siguiente, significa que terminaste de actualizar pip.

pir

En tu terminal (Ctrl+Alt+T), ingresa python3 -c 'import setuptools; print(setuptools.__version__) si obtienes algo como lo siguiente, significa que tienes las herramientas de configuración actualizadas.

pir

En tu terminal (Ctrl+Alt+T), ingresa wheel version y verás algo como lo siguiente, significa que terminaste de actualizar wheel.

pir

Paso 4. Instala pyaudio:

# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'

Si tu terminal muestra algo como lo siguiente, has terminado el último paso, ¡felicidades!

pir

Corre el sistema

git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py

Perspectivas del proyecto

En este proyecto, utilizamos el Servidor Riva ASR para capturar datos de la entrada del micrófono en tiempo real y mostrarlos en una página web. En el futuro agregaremos más aplicaciones como traducir un idioma a otro, teniendo una velocidad de respuesta más rápida.

Loading Comments...